Podsumowanie analizy

Na podstawie przeprowadzonej analizy można stwierdzić, że ceny złota są powiązane z różnymi w wskaźnikami ekonomicznymi w krajach wysoko rozwiniętych (w wypadku tej analizy - krajach Unii Europejskiej w latach 2013-2019). Utworzony model regresji wykazał, że najistotniejszy wpływ na predykcję cen złota miała inflacja.

Podstawowe statystyki

Zbiór danych składa się z 5 tabel:

Łącznie w całym zbiorze danych występuje 10952 obserwacji oraz 286 atrybutów.

Szczegółowa analiza atrybutów

Bitcoin

Currency Exchange Rates

Gold prices

S&P Composite

World Development Indicators

Badanie korelacji

Do dalszej analizy zbiór krajów branych pod uwagę zostanie ograniczony do krajów należących do Unii Europejskiej w latach 2013-2019. W tym okresie UE posiadała najwięcej państw członkowskich w swoich dziejach (28). Dodatkową zaletą tak dobranego okresu jest kompletność danych we wszystkich dostępnych tabelach oraz mniej wartości pustych. Wynika to m.in. z tego, że rejestrowanie części wskaźników rozpoczęto stosunkowo niedawno. Aby uniknąć zaburzenia wyników wszystkie atrybuty z tabeli World Development Indicators z kompletnością danych niższą niż 50% nie będę brane pod uwagę w dalszej analizie.

Poniżej zaprezentowano tabelę z uśrednionymi wartościami wzkaźników dla Unii Europejskiej.

Korelacja między wskaźnikami WDI a cenami złota, bitcoina oraz indeksem S&P

Na podstawie analizy uzyskanych wartości korelacji następujące wybrano następujące wskaźniki, które mogą mieć realny związek zarówno z cenami złota, Bitcoina jak i indeksem S&P. Wymienione niżej korelacje stanowią uśrednioną wartość korelacji trzech ww. atrybutów:

  • Ease of doing business score (0 = lowest performance to 100 = best performance) - korelacja >0.9 - Związek ze Wskaźnikiem łatwości prowadzenia działalności gospodarczej wydaje się być dość oczywisty. Im prościej jest prowadzić działalność, tym wyższe zdają się być ceny oraz indeksy giełdowe.
  • Services, value added (% of GDP) - korelacja ~= 0.6 - wskaźnik mówiący procencie PKB jaki stanowi wartość dodana z sektora usługowego. W krajach wysoko rozwiniętych, jak kraje UE, to usługi mają największy wpływ na PKB, a zatem też na gospodarkę.
  • GDP per capita (current US$) - korelacja ~= 0.6 - Produkt Krajowy Brutto w przeliczeniu na mieszkańca jest jednym z podstawowych mierników gospodarki. Zrozumiałe więc, że PKB krajów UE ma wpływ na globalne ceny.
  • Goods imports (BoP, current US$) - korelacja ~= 0.6 - import dóbr wskazuje bezpośrednio na wartość transakcji międzynarodowych. Transakcje mają wpływ na ceny.
  • Goods exports (BoP, current US$) - korelacja ~= 0.6 - eksport dóbr wskazuje bezpośrednio na wartość transakcji międzynarodowych. Transakcje mają wpływ na ceny.
  • Inflation, consumer prices (annual %) - korelacja ~= 0.65 - wzrost inflacji również ma istotny wpływ na wzrost cen złota, Bitcoina oraz indeksu S&P.
  • Taxes on goods and services (% of revenue) - korelacja ~= -0.6 - im większy procent przychodu stanowią podatki od dóbr i usług tym mniejsze stają się ceny złota, Bitcoina oraz indeksu S&P.

Korelacje powyższych atrybutów zostaną ukazane na poniższych wykresach.

Wizualizacja

Wizualizacja wybranych atrybutów w czasie

Próba stworzenia regresora przewidującego ceny złota

Do stworzenia modelu użyte zostaną atrybuty wybrane w powyższych punktach. Jakość predykcji będzie oceniana za pomocą trzech miar ocen:

  • RMSE - błąd średniokwadratowy - pozwala ocenić jak bardzo predykcja odbiega od aktualnej wartości,
  • R^2 - współczynnik determinacji R-kwadrat - pozwala oszacować jakość dopasowania modelu do danych,
  • MNE - średni absolutny błąd procentowy - pozwala wraz z RSME stwierdzić dodatkowo czy wśród błędów występują takie o bardzo dużych wartości

Linear Model

intercept RMSE Rsquared MAE RMSESD RsquaredSD MAESD
TRUE 70.05427 0.19647 56.16367 5.474014 0.1559017 2.944025

Błąd średniokwadratowy predykcji dla modelu wyniósł 68.5776254.

Ridge Regression

lambda RMSE Rsquared MAE RMSESD RsquaredSD MAESD
0.4977024 68.73559 0.1744594 54.8546 6.910032 0.1252801 5.709085

Błąd średniokwadratowy predykcji dla modelu wyniósł 70.0349089.

k-Nearest Neighbours

k RMSE Rsquared MAE RMSESD RsquaredSD MAESD
29 68.83695 0.1818294 50.74933 5.20467 0.065673 6.482604

Błąd średniokwadratowy predykcji dla modelu wyniósł 69.9484429.

Stochastic Gradient Boosting

shrinkage interaction.depth n.minobsinnode n.trees RMSE Rsquared MAE RMSESD RsquaredSD MAESD
0.1 1 10 50 70.8598 0.1631956 58.9347 9.298335 0.1699268 8.837266

Błąd średniokwadratowy predykcji dla modelu wyniósł 71.9365079.

Bayesian Regularized Neural Networks

neurons RMSE Rsquared MAE RMSESD RsquaredSD MAESD
3 69.10443 0.2013303 55.00056 3.923903 0.1515988 4.516147

Błąd średniokwadratowy predykcji dla modelu wyniósł 68.4879905.

Testowane modele są zbliżone pod względem takich miar jak błąd średniokwadratowy czy R^2. Minimalnie lepszy zdaje się być model Bayesian Regularized Neural Networks.

Analiza ważności atrybutów dla najlepszego znalezionego modelu

Bayesian Regularized Neural Networks

Analizując powyższe ważności atrybutów można szybko zauważyć, że najistotniejszym atrybutem jest inflacja. Podatek od dóbr i usług nie ma w ogóle wpływu na tworzenie modelu. Natomiast pozostałe atrybuty mają od 5 do 10 razy mniejszy wpływ na wynik regresji.